PyTorch学习笔记（13）

您所在的位置：网站首页 › models 参数 › PyTorch学习笔记（13）

PyTorch学习笔记（13）

2023-08-25 20:19| 来源: 网络整理| 查看: 265

PyTorch学习笔记（13）–现有网络模型的使用及修改

本博文是PyTorch的学习笔记，第13次内容记录，主要介绍如何使用现有的神经网络模型，如何修改现有的网络模型。

目录 PyTorch学习笔记（13）--现有网络模型的使用及修改1.现有网络模型2.现有模型的使用2.1VGG16模型的结构2.2修改现有VGG16模型的结构 3.学习小结

1.现有网络模型

在现有的torchvision中提供了许多常见的神经网络模型，这些模型主要包括：分类、语义分割、目标检测、视频分类等类型，其中分类主要针对图像分类，包括AlexNet、VGG、ResNet、GoogLeNet等网络。具体情况可以参照PyTorch官网。详情如下截图所示：在这里插入图片描述

2.现有模型的使用 2.1VGG16模型的结构

现以ImageNet数据集为例，神经网络选取VGG16，具体细节请参照PyTorch官网，VGG16的模型参数如下所示：在这里插入图片描述 VGG16的函数定义结构为：torchvision.models.vgg16_bn(pretrained: bool = False, progress: bool = True, **kwargs: Any) → torchvision.models.vgg.VGG。其中pretrained参数表示是否使用已预训练的模型参数。通过代码调用现有VGG16模型如下：

import torchvision vgg16_false = torchvision.models.vgg16(pretrained=False) vgg16_true = torchvision.models.vgg16(pretrained=True) print(vgg16_true)

该代码运行结果为输出vgg16模型的基本结构，但是一开始需要下载vgg16的模型文件，大小为528M，下载时间较长，代码运行效果如下所示：

VGG( (features): Sequential( (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (1): ReLU(inplace=True) (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (3): ReLU(inplace=True) (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (6): ReLU(inplace=True) (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (8): ReLU(inplace=True) (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (11): ReLU(inplace=True) (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (13): ReLU(inplace=True) (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (15): ReLU(inplace=True) (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (18): ReLU(inplace=True) (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (20): ReLU(inplace=True) (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (22): ReLU(inplace=True) (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (25): ReLU(inplace=True) (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (27): ReLU(inplace=True) (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (29): ReLU(inplace=True) (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False) ) (avgpool): AdaptiveAvgPool2d(output_size=(7, 7)) (classifier): Sequential( (0): Linear(in_features=25088, out_features=4096, bias=True) (1): ReLU(inplace=True) (2): Dropout(p=0.5, inplace=False) (3): Linear(in_features=4096, out_features=4096, bias=True) (4): ReLU(inplace=True) (5): Dropout(p=0.5, inplace=False) (6): Linear(in_features=4096, out_features=1000, bias=True) ) )

从上述运行结果可知：VGG16网络是由13层卷积层和3层全连接层组成，最后网络输出一共有1000个分类结果。

2.2修改现有VGG16模型的结构

在VGG16模型后增加一个线性层，实现将VGG16的1000个类别输出为CIFAR10的10个类别，代码如下：

# coding ：UTF-8 # 文件功能：代码实现预训练模型的功能 # 开发人员： dpp # 开发时间： 2021/8/18 6:45 下午 # 文件名称： model_pretrained.py # 开发工具： PyCharm import torchvision # train_data = torchvision.datasets.ImageNet("ImageNet", split="train", download=True, # transform=torchvision.transforms.ToTensor()) from torch import nn vgg16_false = torchvision.models.vgg16(pretrained=False) vgg16_true = torchvision.models.vgg16(pretrained=True) print(vgg16_true) # 如何利用现有VGG16结构实现CIFAR10的10个类别的输出在原有VGG16结构后面增加一层线性层 train_data = torchvision.datasets.CIFAR10("CIFAR10", train=True, transform=torchvision.transforms.ToTensor(), download=True) vgg16_true.add_module("add_linear", nn.Linear(1000, 10)) # in_features = 1000 out_features = 10 print(vgg16_true)

上述代码输出结果为如下，从输出结果能看出与原VGG16网络相比，最后增加了一层线性层Linear。

如果想将最后的线性层加在classifier中，则将代码修改如下：

# coding ：UTF-8 # 文件功能：代码实现预训练模型的功能 # 开发人员： dpp # 开发时间： 2021/8/18 6:45 下午 # 文件名称： model_pretrained.py # 开发工具： PyCharm import torchvision # train_data = torchvision.datasets.ImageNet("ImageNet", split="train", download=True, # transform=torchvision.transforms.ToTensor()) from torch import nn vgg16_false = torchvision.models.vgg16(pretrained=False) vgg16_true = torchvision.models.vgg16(pretrained=True) print(vgg16_true) # 如何利用现有VGG16结构实现CIFAR10的10个类别的输出在原有VGG16结构后面增加一层线性层 train_data = torchvision.datasets.CIFAR10("CIFAR10", train=True, transform=torchvision.transforms.ToTensor(), download=True) vgg16_true.classifier.add_module("add_linear", nn.Linear(1000, 10)) # in_features = 1000 out_features = 10 print(vgg16_true)

将线性层Linear加在classifier中，输出结果为：

在本文重点讲解了现有神经网络模型的使用和修改方法，在已有模型的基础上搭建自己的模型，是十分方便的。在一下一篇博文，将介绍如何保存和读取网络模型。

【本文地址】

PyTorch学习笔记（13）

PyTorch学习笔记（13）

今日新闻

推荐新闻